火车采集器-房价数据实战
最早接触到火车采集器,是在看清华大学龙瀛老师的《大数据与城市规划》课程中了解到的,基于课程里的ppt,和我自己的操作实践,我慢慢发现,这个采集器挺好用的,但是学习起来确实有一定的学习成本。
数据获取一直是一个难点,尤其海量的互联网数据,没有一定的技术功底,几乎没有办法做研究,简直就是寸步难行。如果你实在是不会写代码去爬虫,完全可以使用某款采集器。我将简单地介绍一下使用方法,以后会详细讲讲,形成一个系列。
首先是下载注册,直接用最新版就可以了,邮箱可以注册,这些不需要多讲。然后是新建任务。
建议使用向导添加网址
批量导入的时候比较多,具体的网址操作和迅雷差不多《如何批量下载在线地图集的地图?》,比如某租房平台,有个网址是page=100,还没到头,你可以一直找到末尾,但是一般网站都不会提供特别多的页码,只有缩小范围,才会显示完全数据。
https://www.**********?page=100
接下来是内容采集规则,这时候就用到了我之前多次讲的《浏览器F12操作概述》《浏览器F12的用法》,很多平台为了防止恶意爬虫,都会在标签上加很多随机的内容,防止你来爬虫。例如在某个标签内,比如价格,通过F12和指针查找,我们找到这个标签。
<div class="totalPrice"><span>10309</span>元/m
我保留黑色的部分,作为一个字符串截取规则,有多个数据一定要点击循环匹配。
随便测试一条效果,只测试某一页的价格。
同样的道理,我们来测试其他的标签。之后的内容发布和其他设置我们不需要管,保存并退出即可。之后点击开始,项目就开始了。当前阶段,数据导出是一个会员项目,免费的只能导出txt,很不好用。至于数据如何免费导出成csv,我将在之后的文章中告诉大家。